## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/C"
## [1] 81
数据集共有81个变量
## Cancelled Chargedoff Completed
## 5 11992 38074
## Current Defaulted FinalPaymentInProgress
## 56576 5018 205
## Past Due (>120 days) Past Due (1-15 days) Past Due (16-30 days)
## 16 806 265
## Past Due (31-60 days) Past Due (61-90 days) Past Due (91-120 days)
## 363 313 304
LoanStatus的分布可以看出借款项目主要集中在四种状态:chargedoff, Completed, Current & Defaulted.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 36.00 36.00 40.83 36.00 60.00
借款周期Term是离散数据,共有三个值:12,36,60,其中借款天数在36天的借款记录是最多的。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00653 0.15629 0.20976 0.21883 0.28381 0.51229 25
借款年度复利利息BorrowerAPR的范围在0.05~0.4之间。
EstimatedEffectiveYield是贷款人的收益,收益范围在0.05~0.3的范围内。但是有离群值显示收益为负,将进一步分析。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.005 0.042 0.072 0.080 0.112 0.366 29084
EstimatedLoss分布图是向右倾斜的,采用log去掉长尾。
EstimatedLoss是在chargeoff上的主体资金的损失,这个数据在右侧倾斜,通过log将数据进行转换后接近正态分布。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.000 3.000 4.000 4.072 5.000 7.000 29084
ProsperRating的分布中,评分在3~5分之间是最多的,最低分1和最高分7较少。
ProsperRating(alpha)的分布与ProsperRating(Numeric)的结果类似,评分最高AA和最低HR较少。
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 1.00 4.00 6.00 5.95 8.00 11.00 29084
ProsperScore是客户风险评分,大部分客户的风险评分中等在4~8之间,其中1为风险最大,值较小。
LP_InterestandFees向右倾斜,将用log去掉长尾。
LP_InterestandFees通过log去掉长尾,结果接近正态分布。
LP_ServieFees绝大多数都在200元以下。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.01000 0.01000 0.01006 0.01000 0.05500
Service rate是BorrowerRate和LenderYield的差值,service rate是平台跟贷款人收取的,可以看到平台收费费率绝大多数在0.01。
这个数据集共有81个变量。81个变量中,分组大致如下:
1.借贷平台借款人,贷款人,平台相关费率信息
2.借款人信息:雇佣情况,信用情况,收入情况。
3.Prosper历史借款相关信息。
4.chargeoff前借还款及费率信息 。 5.贷款人信息。 我将关注借款平台相关费率信息。
其他观察:
Term呈离散分布,主要有12,36,60三种选择。借款36天的人是最多的。
ProsperRating共分7个档次,其中4档最多,7档最少
BorrowerAPR的范围集中在0.05~0.4,小于0.05的值也有,但是很少。
EstimatedEffectiveYield的范围集中在0.05~0.3
EstimatedLoss的范围集中在0~0.2,有离散值在0.25和0.35附近。
因为想要了解借款平台的费率信息,我感兴趣的主要特性是借款人的BorrowerAPR/BorrowerRate,贷款人的收益情况EstimatedEffectiveYield和EstimatedLoss,平台的收益情况Service rate。
数据集中的Term, LoanStatus, ProsperRating,ProsperScore会对数据探索有帮助。
我创建了一个变量:Service rate = BorrowerRate-LenderYield, 从直方图可以看出,绝大多数贷款的service rate是0.01. EstimatedReturn和BorrowerRate比例,可以看到对于大部分的借款来说,贷款人的收益占到借款人支付利息的
EstimatedLoss的分布是向右倾斜的,使用log将这个特征的分布转换。可以看到转换后的分布接近于正态分布。 LP_InterestandFees的分布是向右倾斜的,使用log将这个特征的分布转换。可以看到转换后的分布接近于正态分布。
## [1] "BorrowerAPR" "EstimatedEffectiveYield"
## [3] "EstimatedLoss" "ProsperRating..numeric."
## [5] "ProsperScore"
查看数据分组第一组:借贷平台借款人,贷款人,平台相关费率信息的数据相关度,寻找下一步分析的方向。结果发现BorrowerAPR和EstimatedLoss的相关度达0.954,为什么EstimatedLoss即因chargedoff损失的主体资金与APR有关?
##
## Pearson's product-moment correlation
##
## data: pld$BorrowerAPR and pld$EstimatedLoss
## t = 881.84, df = 84851, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9488713 0.9501952
## sample estimates:
## cor
## 0.9495375
EstimatedLoss和APR主体是线性相关的,但是散点图中有很明显的横条,见在接下里的分析中尝试查看横条的形成原因。
EstimatedLoss和ProsperRating的boxplot中,可以看到AA即评级最高者,EstimatedLoss最低,而HR即评级最低者,EstimatedLoss最高,而且有超出最高值很多的离群值。
APR和ProsperRating的boxplot分析中可以看到评级最高者APR低,反之亦然。
从以上boxplot的分析结果可以看到,EstimatedEffectiveYield在大部分评级下都大于0,只有在评级HR时,有很多的离群值在最小值之下。说明HR评级的用户还款的问题让EstimatedEffectiveYield的值偏低。
## [1] "LP_CustomerPayments" "LP_ServiceFees" "LP_InterestandFees"
## [4] "LP_GrossPrincipalLoss"
分析第四个分组:chargeoff前借还款及费率信息数据的相关性。发现LP_ServiceFee和LP_InterestandFees的相关性达到0.851.
##
## Pearson's product-moment correlation
##
## data: pld$LP_InterestandFees and pld$LP_ServiceFees
## t = -575.44, df = 113940, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.8640343 -0.8610613
## sample estimates:
## cor
## -0.8625553
LP_ServiceFee和LP_InterestandFees的散点图体现了这种相关。相关系数为-0.86,为负相关,因为Service fees在数据中显示为负值。
我观察到BorrowerAPR和EstimatedLoss的相关性很高,有0.954。特别的是,散点图中EstimatedLoss有一条条明显的横线(EstimatedLoss在0.1,0.15,0.2的位置)与BorrowerAPR没有线性相关,我将对这个数据进行进一步探索。
1.ProsperRating评分越高EstimatedLoss率越低,从箱线图可以看到HR的EstimatedLoss最高,而且有很高的离群值。
2.ProsperRating与BorrowerAPR,可以看到Borrower interest rate是根据借款人的评分等级浮动的,评分等级越高,interest rate越低。
3.LP_ServiceFees和LP_InterestandFees的相关系数有0.851,为强相关,可以看到当借款人支付了借款利率,Prosper平台能更有效地收取service rate.
我发现最强的关系是BorrowerAPR和LenderYield之间的关系,有0.99.这符合常识,借款人支付的利息越多(BorrowerAPR是利息年度百分率,复利利息),贷款人得到的yield越多。
BorrowerAPR和EstimatedLoss散点图中加入ProsperScore(即customer risk score),可以看到ProsperScore的值越低,即Prosper平台定义为高风险的用户,损失会更高——甚至有0.3之上的值。
BorrowerAPR和EstimatedLoss散点图中加入ProsperRating,可以看到ProsperRating等级越高,对应的APR越低,同时产生的loss也越少。0.15以上的loss大部分是由HR评级的借款人产生的。
BorrowerAPR和EstimatedLoss散点图中加入loanstatus,可以看到loanstatus是chargedoff和completed的选项形成了散点图中的横条。因为只有一笔贷款完成了或是被定义为chargedoff,Prosper平台才会计入loss
LP_ServiceFees和LP_InterestandFees中加入ProsperRating(Alpha)特性,发现评级越高的颜色区域,对应的interest fee越低,这数据的分析结论与之前在BorrowerAPR和ProsperRating(Alpha)的分析结果是一致的。
在BorrowerAPR和EstimatedLoss中加入loanstatus特性,可以观察到BorrowerAPR和EstimatedLoss散点图中的横条来自于Completed和chargedoff情形,即贷款条目关闭后确定的loss。
在LP_ServiceFees和LP_InterestandFees中加入ProsperRating(Alpha)特性,发现评级越高的颜色区域,对应的interest fee越低,这数据的分析结论与之前在BorrowerAPR和ProsperRating(Alpha)的分析结果是一致的。
BorrowerAPR和EstimatedLoss加入ProsperRating(Alpha)特性,会发现评分越低的用户APR越高,即借款的利率越高,出现逾期,就会出现无法还款的情况。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00000 0.01000 0.01000 0.01006 0.01000 0.05500
Prosper作为一个中间人连接借款人和贷款人,所收取的Service Rate绝大多数在0.01.
BorrowerAPR和EstimatedLoss线性相关,而BorrowerAPR根据Prosper的评级,分值高则interest rate低,反之亦然。
BorrowerAPR和EstimatedLoss大体线性相关,但在散点图中出现了很多横条,加入LoanStatus特性,发现这些横条是数据集中LoanStatus为Completed(少部分为chargedoff),即在这两种情况下,Prosper会统计loss进行计算。
遇到的困难:
一开始做分析时,未绘制一幅数据探索的地图,用来记录分析过程,不如哪条路已经走过了,结果如何。同时没有将数据做大致的分组(组内的数据是具有相关性的),而是从81个变量中随意挑选特性开始进行分析。基于以上两个因素,分析过程的推进很困难,做了很多组(单一变量,双变量,多变量)分析,但分析的结果是碎片,没有形成系统,或逐步深入层层推进,或相互验证。
对于这组跟借贷款相关的数据集中,有很多的专业术语,分析需要建立在对专业术语有理解的情形下才能进行,在一开始的分析中,我试图避开哪些不理解的特性,只对理解的特性进行分析,这也是花了很长时间没有找到那个可以深入分析的特性。
取得的成功: 基于以上的经验,我绘制了分析的地图,记录分析过的参数及结果,来辅助分析过程,避免分析到了一个阶段,忘记了为什么要这样做,以前都做过哪些分析。同时,在做了多组变量分析后,对每一组都尝试增加其他变量查看结果,带着问题深入分析过程。
针对本项目为未来工作提供了至少一个提议或问题: 这个项目让我在在数据探索结果出来后的进一步优化,细化以更好的了解数据的规律和结构上理解更加深刻。这个项目中,我的一些分析没有足够深入和细致,比如ProsperRating的排序,做过调整后对于对数字的理解将更加清晰。